Large language model scoring of medical student reflection essays: Accuracy and reproducibility of prompt-model variations
Este estudio demuestra que los modelos de lenguaje grande (LLM), especialmente cuando se utilizan con fine-tuning o ejemplos de referencia, logran una precisión y reproducibilidad casi perfectas al calificar ensayos de reflexión de estudiantes de medicina, ofreciendo soluciones rentables y escalables para la evaluación automatizada.